Professional Data Engineer

https://gyazo.com/31abc2ecbe35ea2f1866594501a672a9

https://www.credential.net/5125ff3c-b55e-4786-97ed-952d3f851828?key=9470d7386777af1b387c4ca7648f8e09d160ae00e9f0d9bd7ff5bf38f7e08c55

概要

合格

/diary-hiroki/2021/6/26

学習プランニング

よく出るサービス

Dataflow

Dataproc

Spanner

BigQuery

BigQueryML

ML関係

Stackdriver

kafka

hadoop

spark

合格までの勉強方法

Google Cloud Certified Professional Data Engineer: Pr. Testsの終了/icons/check.icon

試験趣向のGCPサービスについて公式ドキュメントを読んでScrapboxに理解をコミットしている

機械学習について

Datamixの復習とか

cloudgirl読むとか

その他の学習リソース

courserapdeコース

公式模試

Google Professional Data Engineer認定資格合格体験記 - 新しいことにはウェルカム

GCP Professional Data Engineer 認定資格の勉強法 - Qiita

試験について

レイテンシ、スループット、トランザクションに関するトレードオフ

分散システム→CAP定理

BigQuery周り

データのバッチとストリーミング

Cloud Dataflow,Cloud Dataproc,Cloud Pub/Sub

Cloud Composerでのwfオーケストレーション

データ基盤のインフラ設計

可用性とか

メッセージブローカー→コンポーネント間の連携検討ポイント

メッセージキュー→コンポーネント間の連携検討ポイント

データ送達保証

ストレージについて→GCPデータベース比較

ML API

Cloud Machine Learning Engine

エッジコンピューティング

機械学習

パイプラインモニタリング→stackdriver

ACID特性、冪等、結果性合成から選択

試験感想

合格までの勉強法でUdemyとdataflow/CloudLogging/Bigtableの公式を読んだくらいだったけど合格できた。

ユースケース毎に各DB/ストレージを選択できるだけで半分くらいは取れそう

Dataflowが結構重点的に出たのでDataflowをしっかり深ぼって理解しておくと良い。Apache Beamのプログラミングモデルの理解とチュートリアルをやってみるとか。

/diary-hiroki/2021/6/24、/diary-hiroki/2021/6/25、/diary-hiroki/2021/6/26

この3日でほぼなんとかした感じ

公式模試も結局やってない

そんなに難しくない

kafka好きすぎだろ笑というぐらい出る

kafkaからpubsubへの移行でpubsubコネクター

緯度経度の問題出た

L1正則化ではなくベクトルとして入力を選択した

どちらが正解かは断言できず

Spannerの主キーUUID4

20TBでRDB→Spanner選んだけど6TBまでじゃないの？

BigQueryのスロット割当が2000限界でどうする？

割当は増やせない、んだよねこれは？

プロジェクトは増やすのはだめという制約

オンプレからの膨大データをTransferappliance

Bigtableのパフォーマンスについて

Dataflowのウィンドウ関数